确定点过程(DPP)的最大后验(MAP)推断对于在许多机器学习应用中选择多种项目至关重要。尽管DPP地图推断是NP-HARD,但贪婪的算法通常会发现高质量的解决方案,许多研究人员已经研究了其有效的实施。一种经典且实用的方法是懒惰的贪婪算法,适用于一般的下函数最大化,而基于Cholesky的最新快速贪婪算法对于DPP MAP推断更有效。本文介绍了如何结合“懒惰”和“快速”的想法,这些思想在文献中被认为是不兼容的。我们懒惰且快速的贪婪算法与当前最好的算法几乎具有相同的时间复杂性,并且在实践中运行速度更快。 “懒惰 +快速”的想法可扩展到其他贪婪型算法。我们还为无约束的DPP地图推断提供了双贪婪算法的快速版本。实验验证了我们加速思想的有效性。
translated by 谷歌翻译
Transparency of Machine Learning models used for decision support in various industries becomes essential for ensuring their ethical use. To that end, feature attribution methods such as SHAP (SHapley Additive exPlanations) are widely used to explain the predictions of black-box machine learning models to customers and developers. However, a parallel trend has been to train machine learning models in collaboration with other data holders without accessing their data. Such models, trained over horizontally or vertically partitioned data, present a challenge for explainable AI because the explaining party may have a biased view of background data or a partial view of the feature space. As a result, explanations obtained from different participants of distributed machine learning might not be consistent with one another, undermining trust in the product. This paper presents an Explainable Data Collaboration Framework based on a model-agnostic additive feature attribution algorithm (KernelSHAP) and Data Collaboration method of privacy-preserving distributed machine learning. In particular, we present three algorithms for different scenarios of explainability in Data Collaboration and verify their consistency with experiments on open-access datasets. Our results demonstrated a significant (by at least a factor of 1.75) decrease in feature attribution discrepancies among the users of distributed machine learning.
translated by 谷歌翻译
Analyzing defenses in team sports is generally challenging because of the limited event data. Researchers have previously proposed methods to evaluate football team defense by predicting the events of ball gain and being attacked using locations of all players and the ball. However, they did not consider the importance of the events, assumed the perfect observation of all 22 players, and did not fully investigated the influence of the diversity (e.g., nationality and sex). Here, we propose a generalized valuation method of defensive teams by score-scaling the predicted probabilities of the events. Using the open-source location data of all players in broadcast video frames in football games of men's Euro 2020 and women's Euro 2022, we investigated the effect of the number of players on the prediction and validated our approach by analyzing the games. Results show that for the predictions of being attacked, scoring, and conceding, all players' information was not necessary, while that of ball gain required information on three to four offensive and defensive players. With game analyses we explained the excellence in defense of finalist teams in Euro 2020. Our approach might be applicable to location data from broadcast video frames in football games.
translated by 谷歌翻译
数据增强是使用深度学习来提高对象识别的识别精度的重要技术。从多个数据集中产生混合数据(例如混音)的方法可以获取未包含在培训数据中的新多样性,从而有助于改善准确性。但是,由于在整个训练过程中选择了选择用于混合的数据,因此在某些情况下未选择适当的类或数据。在这项研究中,我们提出了一种数据增强方法,该方法根据班级概率来计算类之间的距离,并可以从合适的类中选择数据以在培训过程中混合。根据每个班级的训练趋势,对混合数据进行动态调整,以促进培​​训。所提出的方法与常规方法结合使用,以生成混合数据。评估实验表明,提出的方法改善了对一般和长尾图像识别数据集的识别性能。
translated by 谷歌翻译
多源数据融合,共同分析了多个数据源以获得改进的信息,引起了广泛的研究关注。对于多个医疗机构的数据集,数据机密性和跨机构沟通至关重要。在这种情况下,数据协作(DC)分析通过共享维数减少的中间表示,而无需迭代跨机构通信可能是合适的。在分析包括个人信息在内的数据时,共享数据的可识别性至关重要。在这项研究中,研究了DC分析的可识别性。结果表明,共享的中间表示很容易识别为原始数据以进行监督学习。然后,这项研究提出了一个非可读性可识别的直流分析,仅共享多个医疗数据集(包括个人信息)的非可读数据。所提出的方法基于随机样本排列,可解释的直流分析的概念以及无法重建的功能的使用来解决可识别性问题。在医学数据集的数值实验中,提出的方法表现出非可读性可识别性,同时保持了常规DC分析的高识别性能。对于医院的数据集,提出的方法在仅使用本地数据集的本地分析的识别性能方面表现出了9个百分点的改善。
translated by 谷歌翻译
自动故障检测是许多运动的主要挑战。在比赛中,裁判根据规则在视觉上判断缺点。因此,在判断时确保客观性和公平性很重要。为了解决这个问题,一些研究试图使用传感器和机器学习来自动检测故障。但是,与传感器的附件和设备(例如高速摄像头)相关的问题,这些问题与裁判的视觉判断以及故障检测模型的可解释性相抵触。在这项研究中,我们提出了一个用于非接触测量的断层检测系统。我们使用了根据多个合格裁判的判断进行训练的姿势估计和机器学习模型,以实现公平的错误判断。我们使用智能手机视频在包括东京奥运会的奖牌获得者中,使用了正常比赛的智能手机视频,并有意地走路。验证结果表明,所提出的系统的平均准确度超过90%。我们还透露,机器学习模型根据种族步行规则检测到故障。此外,奖牌获得者的故意故障步行运动与大学步行者不同。这一发现符合更通用的故障检测模型的实现。该代码和数据可在https://github.com/szucchini/racewalk-aijudge上获得。
translated by 谷歌翻译
游戏中的学习理论在AI社区中很突出,这是由多个不断上升的应用程序(例如多代理增强学习和生成对抗性网络)的动机。我们提出了突变驱动的乘法更新(M2WU),以在两人零和零正常形式游戏中学习平衡,并证明它在全面和嘈杂的信息反馈设置中都表现出了最后的题融合属性。在全信息反馈设置中,玩家观察了实用程序功能的确切梯度向量。另一方面,在嘈杂的信息反馈设置中,他们只能观察到嘈杂的梯度向量。现有的算法,包括众所周知的乘法权重更新(MWU)和乐观的MWU(OMWU)算法,未能收敛到具有嘈杂的信息反馈的NASH平衡。相反,在两个反馈设置中,M2WU表现出最后的近期收敛到NASH平衡附近的固定点。然后,我们证明它通过迭代地适应突变项来收敛到精确的NASH平衡。我们从经验上确认,M2WU在可剥削性和收敛速率方面胜过MWU和OMWU。
translated by 谷歌翻译
城市河流提供了影响住宅生活的水环境。河流表面监测对于决定在哪里确定清洁工作以及何时自动开始清洁处理至关重要。我们专注于有机泥浆或“浮渣”,该泥浆积聚在河流的表面上,并给予其特殊的气味和对景观的外部经济影响。由于其具有稀疏分布和不稳定的有机形状模式的特征,因此很难自动进行监测。我们建议使用混合图像增强物进行斑块分类管道,以检测河流表面上的浮渣特征,以增加漂浮在河流上的浮渣与附近建筑物,例如建筑物,桥梁,杆子和障碍物(如建筑物,桥梁和障碍物)所反映的河流背景的多样性。此外,我们建议在河流上覆盖的浮渣索引,以帮助在线监视较差的等级,收集浮渣并决定化学处理政策。最后,我们展示了如何在每十分钟的时间序列数据集中使用框架的时间序列数据集录制河流浮渣事件。我们讨论管道的价值及其实验发现。
translated by 谷歌翻译
评估足球运动员队友的个人运动对于评估队伍,侦察和粉丝的参与至关重要。据说,在90分钟的比赛中,球员平均没有大约87分钟的球。但是,在不接球的情况下评估进攻球员并揭示运动如何为队友创造得分机会的贡献一直很困难。在本文中,我们评估了通过将实际动作与通过轨迹预测产生的参考运动进行比较来评估创建球外评分机会的玩家。首先,我们使用图形差异神经网络预测玩家的轨迹,该神经网络可以准确地模拟玩家之间的关系并预测长期轨迹。接下来,基于实际运动轨迹和预测轨迹之间修改的外球评估指数的差异,我们评估实际运动与预测运动相比如何促进得分机会。为了进行验证,我们研究了专家一年中专业球队的所有比赛的年薪,目标和比赛的关系。结果表明,年薪和拟议的指标与现有指标和目标无法解释。我们的结果表明,该方法作为没有球的球员为队友创造得分机会的指标的有效性。
translated by 谷歌翻译
我们考虑使用未知差异的双臂高斯匪徒的固定预算最佳臂识别问题。当差异未知时,性能保证与下限的性能保证匹配的算法最紧密的下限和算法的算法很长。当算法不可知到ARM的最佳比例算法。在本文中,我们提出了一种策略,该策略包括在估计的ARM绘制的目标分配概率之后具有随机采样(RS)的采样规则,并且使用增强的反概率加权(AIPW)估计器通常用于因果推断文学。我们将我们的战略称为RS-AIPW战略。在理论分析中,我们首先推导出鞅的大偏差原理,当第二次孵化的均值时,可以使用,并将其应用于我们提出的策略。然后,我们表明,拟议的策略在错误识别的可能性达到了Kaufmann等人的意义上是渐近最佳的。 (2016)当样品尺寸无限大而双臂之间的间隙变为零。
translated by 谷歌翻译